查看原文
其他

叶绿体基因注释工具PGA安装及使用简介

生信小白鱼 鲤小白 小白鱼的生统笔记 2022-05-08
叶绿体基因注释工具PGA

PGA(Plastid Genome Annotator)是今年新开发出来的叶绿体基因组注释工具。与目前现有的工具相比,它采用了反向BLAST搜索的方法确定基因在叶绿体基因组上的位置,并使用了新开发的基因和内含子特征边界检测算法,使注释准确性和灵活性有效提升。今天白鱼小编就带大家了解一下它。


PGA下载安装


Github链接:https://github.com/quxiaojian/PGA。Github链接中有对该软件的详细介绍,包括功能模块说明、使用简介、结果部分的摘要、参考文献等,帮助大家快速上手软件使用,可仔细阅读。


根据软件说明,该软件目前对于Windows、Linux以及Mac环境均支持,直接在Github中下载即可使用。PGA的主程序是个perl脚本(PGA.pl),因此前提要求你在电脑中已经安装了perl,通过perl来调用PGA。例如在Linux环境下,shell命令行中使用“perl PGA.pl”,即可直接调用程序。由于PGA的功能注释功能通过参考基因序列和目标基因组的同源比对来实现,比对使用到BLAST工具,因此前提也需要你在电脑中已经安装了BLAST。##如在 linux 环境下

#本地尚未安装 BLAST 的话,可直接使用 conda 安装
#conda install blast
#或者在 NCBI 中下载源码编译
#ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
#安装完成后记得一定要将 BLAST 添加至环境变量中

#perl 的话一般 linux 的电脑上都有吧
#没有的话安装一个也不费事,源码编译或 conda 安装等都可以

#PGA 主程序调用,如我的 PGA 路径在 /home/lyao222lll/software/PGA/
perl /home/lyao222lll/software/PGA/PGA.pl

#如果你已经将 PGA 路径添加在 ~/.bashrc 环境变量中,例如
#export PATH=/home/lyao222lll/software/PGA/:$PATH
#并且已对 PGA.pl 添加可执行权限:chmod -R 755 /home/lyao222lll/software/PGA/*
#此时直接在 shell 命令行输入 PGA.pl 即可直接使用了调用一下,能看到帮助选项就是没啥问题了。各参数详情也很简单易懂,PGA路径中的“README.md”说明中也有相关简介。

PGA测试使用


文件准备

  

好了接下来我们使用PGA提供的测试数据,也就是PGA路径中的“test/angiosperms或gymnosperms”,进行叶绿体序列注释,测试软件使用。

 就以“test/angiosperms”为例吧。其中包含两个子文件夹,一个放置GenBank格式的参考叶绿体基因组文件(reference/Amborella_trichopoda.gb,含参考基因组序列及蛋白编码基因、非编码RNA注释等),一个放置待注释的叶绿体基因组fasta文件(target/Rosa_roxburghii.fasta)。

我们看到PGA提供的示例数据中,两个子文件夹中各只放了一条序列,在实际操作中,可以多放几条序列在里面。比如说你使用自己的叶绿体基因组时,对于参考序列,可从NCBI中下载GenBank格式的近缘物种的叶绿体基因组文件,这时候多下载几个吧,多一点肯定没问题,提供更多的参考序列可以使注释结果更完全一些。

好了也介绍的差不多了,以下使用“test/reference/Amborella_trichopoda.gb”同源注释“target/Rosa_roxburghii.fasta”。


PGA注释程序运行

  

参照Github中的说明,或者“README.md”中的说明,我们先使用默认参数作注释。

#默认运行,分别指定放置有参考基因组或目标基因组文件的路径
perl /home/lyao222lll/software/PGA/PGA.pl \
-r /home/lyao222lll/software/PGA/test/angiosperms/reference \
-t /home/lyao222lll/software/PGA/test/angiosperms/target

#上命令的其它参数使用默认值,即等价于
perl /home/lyao222lll/software/PGA/PGA.pl \
-r /home/lyao222lll/software/PGA/test/angiosperms/reference \
-t /home/lyao222lll/software/PGA/test/angiosperms/target \
-i 1000 -p 40 -q 0.5,2 -o gb -f circular -l warning

#各参数详情查看下PGA路径中的“README.md”说明即可
#一般情况下,默认参数就可以了,或者视情况修改参数以使效果更佳

然后等待一小会儿,其实很快就注释完成了。

默认将结果输出在当前工作路径下(当然你也可以通过 -o 参数指定输出位置)。结果文件夹“gb”,里面存放注释结果文件,也是GenBank格式的,以“.gb”后缀;同时也会一并生成日志文件,以“.log”后缀。


日志文件可用于辅助检查注释结果,这里暂且先不关注它,主要查看注释结果。

以示例文件为例,得到“Rosa_roxburghii.gb”。我们打开它,和常规的GenBank格式一样,结果文件中前半部分是注释得到的基因或RNA的名称、位置等信息,后半部分是基因组核酸序列。

总之,软件测试通过了,怎么样,使用起来还是挺简单方便的吧。不过有这么几个小问题需要注意下。

首先,对于每个注释得到的gene,并没有按其在基因组中的先后顺序展示出来,得想办法先排个序。

其次对于CDS编码区,未能提供翻译后的氨基酸序列,后面可能还需根据注释结果找到那段核酸序列,结合codon_start、transl_table信息,自己再找工具翻译下。

此外,检查是否存在没有注释出来的基因或RNA也是不可或缺的。这里作为测试软件使用,我就不再仔细看它了。而在实际情况中,对于存在遗漏未注释出来的基因,基本上是不可避免的,参考基因组和目标基因组之间的差异越大,越容易出现未注释到的基因。所以大家对自己叶绿体基因组注释后记得一定要仔细检查,尽管这一过程进行起来非常繁琐的。对于未注释出来的结果,可以更改软件参数试一下,以及再结合其它的叶绿体注释工具(如GeSeq等,我之前介绍GeSeq的时候也简单提过如何手动定位未注释出来的基因),尽可能不要遗漏基因。

关于其它类型的注释文件如gff、tbl等文件的获取,可以通过我们获得的gbk文件做个转换。BioPerl、Biopython等工具包提供了这类的转化命令,使用起来很方便,就不多提了,大家可自行搜索下。


PGA和GeSeq等其它工具的比较

  

PGA作者在文章中提到,PGA与目前现有的工具相比更加高效,如下文章中的部分截图(比较了PGA和GeSeq)。这儿我就没再做额外的测试比较两种注释工具的区别了,相信作者是严谨的。我先前一直在用GeSeq,的确它会有很多基因由于内含子的问题不能注释完全,但是可以手动检查去确定基因边界,补全它们。不过话说回来GeSeq的体验感还是蛮不错的。
尽管如此,我们最好还是多个软件都跑一下,综合选择注释结果。



友情链接

  

叶绿体/线粒体在线注释网站GeSeq

线粒体在线注释网站MITOS

R语言绘制蝴蝶(柱状)图

R语言绘制双向柱状图

R语言绘制分组柱状图

R语言绘制堆叠面积图

R语言绘制堆叠柱状图

R语言绘制星形图

R语言绘制圆环图

R语言绘制饼图(扇形图)

R语言绘制花瓣图

R语言绘制韦恩图




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存